# Управление инцидентами
## Описание
Управление инцидентами – минимизация негативного воздействия внезапных перерывов в обслуживании или снижений качества продукта путём восстановления нормальной работы продукта в кратчайшие сроки.

## Почему важно управление инцидентами?
Управление инцидентами помогает:
- Влиять на восприятие продукта, его качества и формировать ожидания.
- Рационально использовать ресурсы при решении, ранжируя инциденты по степени влияния на продукт:
  - Инцидентами с незначительным воздействием нужно управлять рационально, чтобы они не потребляли слишком много ресурсов.
  - Инциденты с более серьёзным влиянием на продукт требуют большего объёма ресурсов и более сложного управления.
  - Для управления крупными инцидентами, а также для управления инцидентами информационной безопасности часто используют отдельные процессы.
- Информировать заинтересованные команды и специалистов о состоянии затруднений при эксплуатации продукта.
- Обеспечить эффективность взаимодействия команд при работе над инцидентами с помощью инструментов общения.
- Предотвращать повторение инцидентов, благодаря информации накопленной в ходе решения предыдущих инцидентов.
- Обеспечить своевременный выбор методики решения инцидента:
  - Последовательные процедуры восстановления по готовой методике.
  - Привлечение команды со знаниями и опытом в конкретной предметной области.
  - По методу коллективного анализа под названием "Рой", когда на начальном этапе подразумевается совместная работа нескольких команд разных компетенций, пока не выяснится, кому лучше всего продолжить работу над решением.

## Что будет, если не управлять инцидентами?
- Негативное восприятие продукта:
  - Повторяющиеся проблемы при эксплуатации продукта.
  - Длительные сроки восстановления после сбоев.
  - Отсутствие заготовленного временного решения-костыля для минимизации негативного влияния на продукт во время поиска окончательного решения.
- Нерациональное использование ресурсов при решении:
  - Многократное повторение процесса поиска решения, которое уже было ранее найдено при решении предыдущих инцидентов из-за отсутствия накопленной структурированной информации по ранее решённым инцидентам.
  - Использование недостаточных ресурсов для попытки решения крупных инцидентов.
  - Задействование массивных и дорогих ресурсов при решении незначительных инцидентов.
- Невозможность решения некоторых инцидентов вовсе:
  - Отсутствует индивидуальная для конкретного продукта методика решения.
  - Нет связующей информации о компетенциях команд подходящих для решения сложного инцидента.

## На кого может быть делегировано управление инцидентами?
Управление инцидентами подразумевает привлечение широкого круга участников процесса, включая команды специалистов, пользователей, руководство, юристов, поставщиков и сторонние организации, если в части продукта задействованы их услуги.

## Примеры поведения
### Примеры плохого поведения
- Несвоевременное и недостаточно полное внесение информации о ходе решения инцидента или не внесение такой информации вовсе приведёт к нерациональному решению аналогичных инцидентов в будущем или даже к невозможности решения
- Отсутствие ранжирования инцидентов по тяжести и степени влияния на продукт
- Выбор неэффективного метода решения сложного инцидента, если не подошла ни одна из ранее описанных процедур, без привлечения команды с соответствующей компетенцией, поддержки поставщика или коллективного анализа, при необходимости.
- Фокус на поиске виновного.

### Примеры хорошего поведения
- Использовать подходящий инструментарий для управления инцидентами: с содержанием в записях об инцидентах блоков и ссылок с описанием влияния на компоненты конфигурации продукта, связанных проблем, известных ошибок и другой информации, чтобы обеспечить быструю и эффективную диагностику и восстановление.
- Подключить к работе над инцидентами специалистов поддержки поставщика, в случае необходимости. Заранее подготовить соответствующие пункты контрактов.
- Инициировать создание, использование, постоянное и качественное заполнение справочной системы для возможности решения инцидентов самим пользователями в момент возникновения.
- Формализовать процесс регистрации и управления инцидентами, чтобы обеспечить повышение эффективности исследования и диагностики инцидентов.

### Практика
Начать внедрение управления инцидентами следует с обязательной фиксации каждого  инцидента и внесения подробной информации с описанием хода решения, так появится возможность накапливать базу знаний и связывать части информации и быстро находить нужное в ранее решённых инцидентах, тем самым увеличивая скорость решения и снижая негативное влияние на продукт. С ростом продукта следует формализовать процедуры работы с инцидентами для одинакового восприятия информации и предпринимаемых действий всеми вовлечёнными командами — так возможно объединение совершенно разных команд с различными компетенциями для слаженной работы над инцидентами. 

## Теория
### Книги
- [ITIL 4 Foundation, 2019](https://www.axelos.com)
- [Digital Swarming “The Next Model for Distributed Collaboration and Decision Making”, Cisco Internet Business Solutions Group (IBSG), 2008](https://s3.amazonaws.com/connected_republic/attachments/4/Digital_Swarming_EB_0812c_FINAL.pdf)
- [Intelligent Swarming: A Framework for Collaboration, 2019](https://library.serviceinnovation.org/Intelligent_Swarming/Intelligent_Swarming%3A_A_Framework_for_Collaboration)
- [Site Reliability Engineering: How Google Runs Production Systems (главы 14 и 15)](https://landing.google.com/sre/sre-book/toc/index.html)
- John Allspaw. Blameless PostMortems and a Just Culture - [оригинал](https://codeascraft.com/2012/05/22/blameless-postmortems/),[перевод](http://goblingame.blogspot.com/2012/07/blog-post_13.html)

